Construction d'attributs pour l'extraction de connaissances à partir de séquences biologiques
نویسندگان
چکیده
Résumé. Dans cet article nous étudions un problème de prétraitement de données : la construction d’attributs décrivant des séquences biologiques. Afin d’assurer l’extraction de connaissances à partir de séquences biologiques (ADN, ARN et protéines), tout système de fouille de données (datamining) se confronte à la représentation non habituelle de ce type de données. Une séquence biologique est représentée, en structure primaire, par une chaîne de caractères. La construction d’attributs décrivant les séquences biologiques est une étape de prétraitement inévitable. Dans cet article, nous étudions les méthodes existantes de construction d’attributs décrivant des séquences biologiques, notamment, celles qui se basent sur les n-grammes, l’arbre de suffixes généralisés et les modèles de Markov cachés. Notre contribution dans cet axe a été la proposition de la méthode des descripteurs discriminants et la présentation d’une étude comparative approfondie de ces méthodes en les appliquant à des problèmes biologiques typiques comme la reconnaissance de sites promoteurs des gènes de E. Coli, la reconnaissance de sites de jonction de Primate et la classification des protéines. Une confrontation des résultats de chaque méthode avec la banque de motifs Pfam sera aussi présentée.
منابع مشابه
L'analyse formelle de concepts pour l'extraction de connaissances dans les données d'expression de gènes
Résumé. L’analyse formelle de concepts (AFC, Ganter et Wille (1999)) est une méthode pertinente d’extraction de connaissances à partir de données complexes d’expression de gènes (Blachon et al. (2007), Motameny et al. (2008)). Dans ce papier, nous proposons d’extraire des groupes de gènes partageant un comportement similaire montrant des changements “significatifs” à travers divers environnemen...
متن کاملTraitement et exploration du fichier Log du Serveur Web pour l'extraction des connaissances : Web Usage Mining
Résumé : Le but dans ce travail consiste à concevoir et réaliser un Outil, en se basant sur l’ECD (Extraction de la Connaissance a partir de bases de données), en utilisant les concepts du Web Usage Mining, pour offrir aux web masters l’ensemble des connaissances, y inclut les statistiques sur leurs sites, afin de prendre les bonnes décisions. Il s’agit en faite, d’extraire de l’information à p...
متن کاملL'analyse relationnelle de concepts pour la fouille de données temporelles - Application à l'étude de données hydroécologiques
Résumé. Cet article présente une méthode d’exploration de données temporelles, fondée sur l’analyse relationnelle de concepts (ARC) et appliquée à des données séquentielles construites à partir d’échantillons physico-chimiques et biologiques prélevés dans des cours d’eau. Notre but est de mettre au jour des sous-séquences pertinentes et hiérarchisées, associant les deux types de paramètres. Pou...
متن کاملApprentissage artificiel : acquis, limites et enjeux
L’apprentissage artificiel est une activité circulaire, extrayant des connaissances à partir des observations disponibles et utilisant ces connaissances pour chercher de nouvelles informations, ou décrire différemment les observations. Dans cet article de synthèse, nous nous intéressons essentiellement à la construction de connaissances, règles ou modèles, à partir de données. Les acquis majeur...
متن کاملExtension des bases de données inductives pour la découverte de chroniques
Résumé. Les bases de données inductives intègrent le processus de fouille de données dans une base de données qui contient à la fois les données et les connaissances induites. Nous nous proposons d’étendre les données traitées afin de permettre l’extraction de motifs temporels fréquents et non fréquents à partir d’un ensemble de séquences d’évènements. Les motifs temporels visés sont des chroni...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2006